Image restoration tasks have achieved tremendous performance improvements with the rapid advancement of deep neural networks. However, most prevalent deep learning models perform inference statically, ignoring that different images have varying restoration difficulties and lightly degraded images can be well restored by slimmer subnetworks. To this end, we propose a new solution pipeline dubbed ClassPruning that utilizes networks with different capabilities to process images with varying restoration difficulties. In particular, we use a lightweight classifier to identify the image restoration difficulty, and then the sparse subnetworks with different capabilities can be sampled based on predicted difficulty by performing dynamic N:M fine-grained structured pruning on base restoration networks. We further propose a novel training strategy along with two additional loss terms to stabilize training and improve performance. Experiments demonstrate that ClassPruning can help existing methods save approximately 40% FLOPs while maintaining performance.
translated by 谷歌翻译
在本文中,我们为RSI(名为Superyolo)提出了一种准确而快速的小对象检测方法,该方法融合了多模式数据并通过利用辅助超级分辨率(SR)学习并考虑既有辅助的超级分辨率(SR)对象进行高分辨率(HR)对象检测检测准确性和计算成本。首先,我们通过删除焦点模块来保持人力资源特征并显着克服小物体缺失的误差来构建紧凑的基线。其次,我们利用像素级的多模式融合(MF)从各种数据中提取信息,以促进RSI中的小物体更合适和有效的功能。此外,我们设计了一个简单且灵活的SR分支来学习HR特征表示,可以区分具有低分辨率(LR)输入的庞大背景的小物体,从而进一步提高了检测准确性。此外,为避免引入其他计算,SR分支在推理阶段被丢弃,并且由于LR输入而减少了网络模型的计算。实验结果表明,在广泛使用的Vedai RS数据集上,Superyolo的精度为73.61%(在MAP50方面),比SOTA大型模型(例如Yolov5L,Yolov5X和RS设计的Yolors)高10%以上。同时,Superyolo的Gfolps和参数大小比Yolov5X少约18.1倍,4.2倍。我们提出的模型显示出与最新模型相比,具有良好的准确性速度权衡。该代码将在https://github.com/icey-zhang/superyolo上开放。
translated by 谷歌翻译
变分量子本层(VQE)是一种领先的策略,可利用嘈杂的中间量子量子(NISQ)机器来解决化学问题的表现优于经典方法。为了获得大规模问题的计算优势,可行的解决方案是量子分布式优化(QUDIO)方案,该方案将原始问题分配到$ K $子问题中,并将其分配给$ K $量子机器,然后将其分配给并行优化。尽管有可证明的加速度比率,但Qudio的效率可能会因同步操作而大大降低。为了征服这个问题,我们在这里提议在量子分布式优化期间,将洗牌措施涉及到当地的汉密尔顿人。与Qudio相比,Shuffle-Qudio显着降低了量子处理器之间的通信频率,并同时达到了更好的训练性。特别是,我们证明,Shuffle-Qudio可以比Qudio更快地收敛速率。进行了广泛的数值实验,以验证估计分子的基态能量的任务中,隔离式时间速度允许壁式时间速度和低近似误差。我们从经验上证明,我们的建议可以与其他加速技术(例如操作员分组)无缝集成,以进一步提高VQE的疗效。
translated by 谷歌翻译
Dimage Dehazing是低级视觉中的一个活跃主题,并且随着深度学习的快速发展,已经提出了许多图像去悬式网络。尽管这些网络的管道效果很好,但改善图像飞行性能的关键机制尚不清楚。因此,我们不针对带有精美模块的飞行网络。相反,我们对流行的U-NET进行了最小的修改,以获得紧凑的飞行网络。具体而言,我们将U-NET中的卷积块与门控机构,使用选择性内核进行融合,并跳过连接,并调用所得的U-NET变体Gunet。结果,由于开销大大减少,Gunet优于多个图像脱掩的数据集上的最新方法。最后,我们通过广泛的消融研究来验证这些关键设计为图像去除网络的性能增益。
translated by 谷歌翻译
目前,跨景元的高光谱图像(HSI)分类引起了人们的注意。当需要实时处理TD且不能重复使用训练时,必须仅在源域(SD)上训练模型(SD)并将模型直接传输到目标域(TD)。基于域概括的思想,开发了单源域扩展网络(SDENET),以确保域扩展的可靠性和有效性。该方法使用生成的对抗学习在SD中训练和TD测试。包括语义编码器和MORPH编码器在内的发电机旨在基于编码器随机化架构生成扩展域(ED),其中空间和频谱随机化专门用于生成可变的空间和光谱信息,并隐含形态知识。作为域扩展过程中的域不变信息。此外,受监督的对比学习被采用在歧视者中,以学习阶级领域不变的表示,该表示驱动了SD和ED的阶级样本。同时,对抗性训练旨在优化发电机以驱动SD和ED的阶级样品进行分离。与最先进的技术相比,在两个公共HSI数据集和另一个多光谱图像(MSI)数据集上进行了广泛的实验,证明了该方法的优越性。
translated by 谷歌翻译
在这项工作中,我们探讨了用于语义分割知识蒸馏的数据增强。为了避免过度适合教师网络中的噪音,大量培训示例对于知识蒸馏至关重要。 Imagelevel论证技术(例如翻转,翻译或旋转)在先前的知识蒸馏框架中广泛使用。受到功能空间上语义方向的最新进展的启发,我们建议在功能空间中包括以进行有效蒸馏的功能。具体而言,给定语义方向,可以在功能空间中为学生获得无限数量的增强。此外,分析表明,可以通过最大程度地减少增强损失的上限来同时优化这些增强。基于观察结果,开发了一种用于语义分割的知识蒸馏的新算法。对四个语义分割基准测试的广泛实验表明,所提出的方法可以提高当前知识蒸馏方法的性能而没有任何明显的开销。代码可在以下网址获得:https://github.com/jianlong-yuan/fakd。
translated by 谷歌翻译
最近,基于卷积神经网络(CNN)的合成孔径雷达(SAR)图像的变更检测方法已增加了研究的注意力。但是,现有的基于CNN的方法忽略了多层卷积之间的相互作用,并且涉及的预分类限制了网络优化。为此,我们提出了一个基于注意力的噪声网络,称为Lantnet。特别是,我们设计了一个层注意模块,该模块可以适应不同卷积层的特征。此外,我们设计了一个耐噪声损失函数,可有效抑制嘈杂标签的影响。因此,该模型对预制结果中的嘈杂标签不敏感。三个SAR数据集的实验结果表明,与几种最新方法相比,所提出的Lantnet性能更好。源代码可在https://github.com/summitgao/lantnet上找到
translated by 谷歌翻译
尖峰神经网络(SNN)引起了脑启发的人工智能和计算神经科学的广泛关注。它们可用于在多个尺度上模拟大脑中的生物信息处理。更重要的是,SNN是适当的抽象水平,可以将大脑和认知的灵感带入人工智能。在本文中,我们介绍了脑启发的认知智力引擎(Braincog),用于创建脑启发的AI和脑模拟模型。 Braincog将不同类型的尖峰神经元模型,学习规则,大脑区域等作为平台提供的重要模块。基于这些易于使用的模块,BrainCog支持各种受脑启发的认知功能,包括感知和学习,决策,知识表示和推理,运动控制和社会认知。这些受脑启发的AI模型已在各种受监督,无监督和强化学习任务上有效验证,并且可以用来使AI模型具有多种受脑启发的认知功能。为了进行大脑模拟,Braincog实现了决策,工作记忆,神经回路的结构模拟以及小鼠大脑,猕猴大脑和人脑的整个大脑结构模拟的功能模拟。一个名为BORN的AI引擎是基于Braincog开发的,它演示了如何将Braincog的组件集成并用于构建AI模型和应用。为了使科学追求解码生物智能的性质并创建AI,Braincog旨在提供必要且易于使用的构件,并提供基础设施支持,以开发基于脑部的尖峰神经网络AI,并模拟认知大脑在多个尺度上。可以在https://github.com/braincog-x上找到Braincog的在线存储库。
translated by 谷歌翻译
单眼3D对象检测是低成本自主剂感知其周围环境的常见解决方案。单眼检测已分为两类:(1)直接从正面视图图像推断3D边界框的直接方法; (2)3D中间表示方法将图像映射到3D空间以进行后续3D检测。第二类不仅脱颖而出,不仅是因为3D检测锻造的伪装在更有意义和代表性的特征的怜悯下,而且还因为新兴的SOTA端到端的预测和计划范式需要从感知中获得鸟类视图的特征图管道。但是,在转换为3D表示形式时,这些方法不能保证对象在潜在空间中的隐式方向和位置与在欧几里得空间中明确观察到的物体一致,这会损害模型性能。因此,我们认为,隐式和显式特征的一致性很重要,并提出了一种新颖的单眼检测方法,名为CIEF,并具有第一个方向感知的图像主链,以消除随后的3D表示中隐式和显式特征的差异。作为第二个贡献,我们引入了射线注意机制。与以前的方法相反,该方法沿着投影射线重复特征或依靠另一个Intermedia froustum Point云,我们将图像特征直接转换为具有稳定特征的Voxel表示。我们还提出了一个手工制作的高斯位置编码函数,该函数的表现优于正弦的编码函数,但保持连续的好处。 CIEF在提交时间的3D和BEV检测基准的所有报告的方法中排名第一。
translated by 谷歌翻译
主要的图像到图像翻译方法基于完全卷积的网络,该网络提取和翻译图像的特征,然后重建图像。但是,在使用高分辨率图像时,它们的计算成本不可接受。为此,我们介绍了多曲线翻译器(MCT),它不仅可以预测相应的输入像素的翻译像素,还可以预测其相邻像素的翻译像素。而且,如果将高分辨率图像删除到其低分辨率版本中,则丢失的像素是其余像素的相邻像素。因此,MCT可以使网络仅馈入倒数采样的图像以执行全分辨率图像的映射,从而大大降低计算成本。此外,MCT是一种使用现有基本型号的插件方法,仅需要更换其输出层。实验表明,MCT变体可以实时处理4K图像,并比各种逼真的图像到图像翻译任务上的基本模型实现可比甚至更好的性能。
translated by 谷歌翻译